数据以难以想象的速度扩展,并且随着这种发展,有责任质量的数据。数据质量指的是信息存在的相关性,并有助于在特定组织中的决策和规划等各种操作。大多数数据质量是根据ad-hoc测量的,因此没有开发的概念提供任何实际应用。目前的实证研究是为制定了一个具体的自动化数据质量平台,以评估传入数据集的质量,并生成质量标签,分数和全面报告。我们利用来自HealthData.gov,Opendata.nhs和人口统计和健康调查(DHS)程序的各种数据集来观察质量分数的变化,并使用主成分分析(PCA)制定标签。目前的实证研究结果揭示了一种包括九种质量成分的度量,即来源,数据集特征,均匀性,元数据耦合,丢失小区的百分比和重复的行,数据的歪曲,分类列的不一致性比率和之间的相关性这些属性。该研究还提供了一种说明性的突变测试方法的公制的研究和验证。该研究研究提供了一个自动平台,该平台占据了传入的数据集和元数据,以提供DQ分数,报告和标签。本研究的结果对于数据科学家来说是有用的,因为这种质量标签的价值将在部署他/她各自的实际应用程序之前灌输信心。
translated by 谷歌翻译